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摘 要 通常 情况 下 , 认 知 诊断 需要 通过 认 知 诊断 模型 对 被 试 进行 诊断 评价 。 认 知 诊断 模型 所 
生成 的 诊断 结果 的 有 效 性 依赖 于 被 试 作答 反应 是 否 与 所 选用 的 模型 拟 合 。 因 此 , 在 对 诊断 结 
果 进 行 评估 的 时 候 , 需要 通过 被 试 拟 合 分 析 来 对 被 试 个 体 的 作答 反应 与 模型 的 拟 合 情 况 进行 
检验 ， 以 避免 错误 或 无 效 的 补救 措施 。 本 研究 基于 加 权 的 得 分 残 差 ， 提 出 认 知 诊断 评价 中 新 
的 被 试 拟 合 指标 R。 模拟 研 究 结 果 表 明 , R 指 标的 一 类 错误 率 有 较 好 的 稳定 性 , 对 随机 作答 、 
疲劳 、 睡 虐 和 创造 性 作答 四 种 异常 被 试 类 型 均 有 较 高 的 统计 检验 力 。 并 将 R 指 标 应 用 于 分 数 
减法 实证 数据 ， 展 示 R 指 标 在 实际 测验 中 的 使 用 过 程 。 

关键 词 认 知 诊断 被 试 拟 合 DINA 模型 异常 反应 作答 


近年 来 ， 认 知 诊断 评价 (cognitive diagnosis assessment, CDA) 在 心理 和 教育 测量 中 得 到 
了 广泛 的 应 用 ， 它 对 考生 是 否 掌 握 知 识 点 或 技能 进行 分 析 ， 为 进一步 学 习 和 教学 提供 指导 
(Leighton & Gierl, 2007; Rupp et al., 2010; Tatsuoka, 1983) 。 认 知 诊断 模型 在 认 知 诊断 评价 
过 程 中 起 到 统计 工具 的 作用 , 它 被 用 来 推断 被 试 所 掌握 的 属性 , 诊断 过 程 需要 借助 它 来 对 被 
试 进行 诊断 评价 (von Davier & Lee, 2019) 。 认 知 诊断 模型 与 测验 数据 的 拟 合 情 况 ， 直 接 影 
响 依据 这 个 模型 得 到 的 诊断 结果 的 准确 性 , 并 影响 整个 测验 的 信和 度 和 效 度 , 因此 认 知 诊断 评 
价 需 检 验 模型 -资料 拟 合 优 度 。 标 准 5.19 (the Standards for educational and psychological 
testing, pp107) 中 明确 提出 在 教育 和 心理 测量 中 ,需要 对 所 选择 的 项 目 反 应 模型 与 作答 反应 
数据 进行 拟 合 检 验 。 

在 教育 测量 中 , 考试 分 数 是 用 来 衡量 被 试 的 能 力 水 平 的 , 但 由 于 被 试 可 能 存在 的 异常 行 
为 ， 考 试 分 数 不 一 定 是 被 试 技能 或 知识 的 真实 反映 。 在 心理 测量 学 中 ,衡量 被 试 的 实际 作答 
反应 与 其 模型 预测 的 反应 之 间 的 差异 的 方法 称 为 被 试 拟 合 Meijer & Sijtsma, 2001) 。 被 试 
拟 合 用 来 检验 被 试 个 人 作答 反应 与 认 知 诊断 模型 的 拟 合 程度 , 恰当 的 认 知 诊断 模型 应 该 比较 
准确 的 反映 被 试 在 项 目 反 应 过 程 中 的 心理 加 工 特征 , 以 有 效 地 推断 被 试 属性 掌握 情况 。 被 试 
作答 反应 能 够 拟 合 所 选择 的 认 知 诊断 模型 ， 称 为 被 试 拟 合 (person-fit) ; 反之 ， 如 果 被 试 出 
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现 异 常 作答 反应 ， 和 所 选择 的 认 知 诊断 模型 不 拟 合 ， 称 为 被 试 不 拟 合 (person-misfit) 。 如 果 
出 现 被 试 不 拟 合 , 一 方面 , 根据 失 拟 被 试 的 作答 反应 数据 对 其 属性 掌握 模式 进行 推断 的 结 

可 能 是 难以 解释 或 无 效 的 ， 进 一 步 导 致 不 合适 的 补救 措施 ， 其 次 ， 失 拟 被 试 的 数据 可 能 会 影 
响 整 个 测验 的 信 效 度 , 因此 被 试 拟 合 检验 尤为 重要 。 以 往 关 于 被 试 拟 合 的 研究 大 多 集中 在 项 
目 反 应 理论 〈item response theory, IRT; Baker & Kim, 2004) 下 开展 ， 在 认 知 诊断 评价 中 ， 被 
试 拟 合 检验 在 测验 评价 分 析 过 程 中 较 易 被 忽视 , 与 被 试 拟 合 有 关 的 研究 较 少 。 目前 已 有 的 研 
究 主 要 包括 : Liu A (2009) 基于 边际 和 联合 似 然 比 检验 ， 提 出 了 用 于 判别 异常 作答 被 试 
的 似 然 比 检验 统计 量 ， 引 入 异常 反应 概率 变量 p;， 并 用 标示 变量 4 定义 异常 反应 被 试 类 型 ， 
其 局 限 性 在 于 实践 过 程 中 异常 被 试 和 异常 反应 类 型 较 难 补 人 为 定义 ; Cui 和 Leighton (2009) 
开发 了 在 属性 层级 模型 下 衡量 被 试 观察 反应 模式 和 理想 反应 模式 是 否 匹 配 的 层级 一 致 性 指 


> fs Chierarchical consistency index, HCD ， 层 级 一 致 性 指标 基于 属性 层级 模型 ， 即 强调 属性 
N 间 的 关系 , 当 测验 所 考察 的 属性 之 间 只 有 部 分 属性 具有 层级 关系 或 者 属性 之 间 没 有 层级 关系 
时 ，HCI 指 标 就 不 适用 ; Liu A (2009) 提出 的 似 然 比 检验 统计 量 被 证 明 在 使 用 DINA 模 
型 时 对 虚假 的 高 分 spuriously high scores) 和 虚假 的 低 分 spuriously low scores) 具有 较 好 
的 检测 力 ; Cui 和 Li (2015) 将 4 指标 扩展 到 认 知 诊断 框架 下 ， 同 时 提出 了 一 种 新 的 比较 观 
察 反应 模式 和 理想 反应 模式 的 反应 一 致 性 指标 (response conformity index, RCI) ;还 有 研究 
者 对 认 知 诊断 测验 中 的 被 试 拟 合 检验 进行 了 综述 和 分 析 〔 陈 孚 等 , 2016; 涂 冬 波 等 , 2014) 。 
正 是 因为 诊断 测验 中 被 试 拟 合 研究 的 重要 性 , 本 研究 拟 构建 基于 认 知 诊断 测验 的 被 试 拟 侣 指 
标 ， 并 将 它 与 已 和 RCI 指标 进行 比较 ， 考 察 它们 在 不 同 条 件 下 的 表现 。 有 关 L. 和 RC1 指 标的 介 
绍 ， 请 见 附录 A。 
2. 认 知 诊断 评价 下 被 试 拟 合 指标 R 的 提出 

残 差 是 回归 分 析 中 的 重要 概念 ， 残 差 在 数理 统计 中 是 指 实 际 观察 值 与 期 望 值 〈 拟 合 
值 ) 之 间 的 偏差 。 残 差 应 用 其 中 列 含 的 逻辑 就 是 ， 通 过 对 比 理想 情况 与 实际 情况 的 差异 而 
发 现 其 中 的 异常 情况 。 预 期 偏差 会 使 残 差 统计 量 膨胀 ， 这 与 被 试 拟 合 检验 的 思想 一 致 。 本 
研究 打算 构建 基于 残 差 的 被 试 拟 合 统计 量 R 指 标 来 进行 诊断 测验 中 的 被 试 的 合 分 析 。 下 面 
首先 给 出 标准 化 残 差 的 定义 。 
2.1 标准 化 残 差 的 定义 

在 IRT 有 关 的 很 多 研究 中 ， 尤 其 是 有 关 Rasch 模型 的 研究 ， 有 很 多 和 标准 化 残 差 


zu Eld E (Masters & Wright, 1997) 。 其 中 Var(Xij|01) 是 给 定 能 力 什 6 随 机 变量 


Var (Xijl0i) 


Xij 的 方差 。 对 考生 在 各 项 目 上 标准 化 残 差 求 和 之 后 就 可 以 作为 被 试 拟 合 的 评价 指标 。 一 方 
面 ， 标 准 化 残 差 可 以 看 作 是 一 种 加 权 的 残 差 ， 权重 是 项 目 作 答 的 条 件 标准 误 的 倒数 ， 它 近似 
服从 标准 正 态 分 布 。 另 一 方面 , 因为 被 试 拟 合 关 注 的 是 考生 的 观察 作答 与 模型 的 预测 作答 之 
间 的 一 致 性 ， 当 观察 作答 与 模型 的 预测 之 间 存 在 严重 的 不 一 致 时 , 表现 在 出 现 这 个 观察 作答 
的 概率 很 小 ， 并 且 由 于 它 处 于 分 母 的 位 置 ， 是 一 个 逆向 的 权重 ， 就 会 导致 残 差 的 取 值 虚 高 ， 
因此 基于 以 上 的 考虑 , 本 研究 以 观察 作答 概率 的 倒数 作为 被 试 拟 合 统计 量 的 权重 , 定义 新 的 


指标 R。 
2.2 R 指 标的 定义 
R 指 标的 数学 表达 式 如 下 : 
N Ri = > log fea Se (1) 
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其 中 ,xi 表示 被 试 ;在 项 目 /上 的 观察 得 分 ，wi 是 被 试 ;的 属性 掌握 模式 。 在 实际 应 用 中 ， 
真实 的 被 试 属性 掌握 模式 是 无 法 得 到 的 ， 因 此 本 研究 采用 被 试 属性 掌握 模式 估计 值 。 
E(Xijlai) 表 示 属 性 掌握 模式 为 @; 的 被 试 :在 项 目 j 上 的 期 望 得 分 , 如 在 DINA 模型 (de la Torre, 
2000) F, 每 个 项 目 只 包含 两 个 参数 : 失误 参数 。(slipping parameter) 和 猜测 参数 g (guessing 
parameter) 。 如 果 被 试 1 掌握 了 项 目 j 考 察 的 所 有 属性 ， 此 时 E(Xij|ai) = 1 一 sj， 如 果 被 试 ;至 
ql 少 有 一 个 项 目 /考察 的 属性 未 掌握 ， 此 时 BE(Xiloas) = 9 ， 分 子 是 观察 作答 与 期 望 得 分 之 差 。 
> 分 母 P(xijla) 表 示 属性 掌握 模式 为 qi 的 被 试 : 在 项 目 j 上 得 x 分 的 概率 ， 当 属性 掌握 模式 为 a 
~ 的 被 试 :掌握 了 项 目 j 考 察 的 属性 并 正确 作答 时 , P(xij = 1a) = E(Xij|ai)。 当 P(xijlei) 值 越 
= 小 时 ， 被 试 失 拟 程 度 越 高 ， 它 进一步 放大 了 观察 作答 和 期 望 作答 之 间 的 残 差 。Ri 是 被 试 :在 
© 所 有 项 目 上 的 R 值 的 和 ， 其 值 越 大 表示 越 不 拟 合 ， 而 对 于 一 个 “ 拟 合 良 好 ”的 被 试 来 说 ， 可 

以 预期 其 Ri 值 相对 更 小 。 需 要 注意 的 是 ，R 指 标本 身 不 依赖 于 特定 的 诊断 模型 ， 因 为 DINA 
模型 具有 参数 简单 、 易 于 使 用 、 有 很 多 的 开源 软件 都 包含 DINA 模型 ， 这 是 选择 DINA 模型 


作为 实例 的 原因 ， 有 关 DNA 模型 的 具体 信息 请 参考 (de la Torre, 2009; Junker & Sijtsma, 


2001; von Davier & Lee, 2019) 。 

在 DNA 模型 中 ， 则 对 于 每 个 考生 来 说 ， 他 /她 所 完成 的 项 目 根据 其 对 属性 的 掌握 情况 
和 作答 情况 可 以 分 成 四 类 : 掌握 某 项 目 考察 的 属性 , 但 是 正确 作答 (7ii ) 或 错误 作答 (7io ); 
未 完全 掌握 某 项 目 ， 错 误 作答 Moo) 或 正确 作答 o1) 。 这 里 1 表示 对 应 类 型 的 题目 数量 ， 
它 的 第 一 个 下 标 表 示 被 试 对 项 目 属性 的 是 否 完全 掌握 , 第 二 个 下 标 表 示 其 作答 是 否 正 确 , 它 
的 取 值 为 1 表示 完全 掌握 或 正确 作答 。 这 样 一 来 ， 公 式 1 可 以 写成 如 下 的 形式 : 


TH 


2 am Ge 2 六 2 2 
Ri = Yu log B +E}, log |=] +z tog B +E} log |=], (2) 
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FO, hi ho JooF Wor MN Mmo NooF Nor 的 题目 数 。 进 一 步 ， 当 sj 和 gj 都 小 


于 0.5 时 ， 公 式 2 可 以 变换 成 : 
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可 以 看 出 ,对 于 一 个 “ 拟 合 良好 ” 的 被 斌 来 说 , ho 和 Jo 应 该 会 小 , log| 这 -| 和 iog| 记 | 
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Ky log |] Alo | 二 2 者 是 正 值 ， 此 时 Ri 的 值 应 该 是 更 大 的 值 。 
3. 研究 一 : R 指 标 与 !:、RCI 指 标 比较 研究 

为 了 评价 R 指 标 在 诊断 测验 的 被 试 拟 合 检验 上 的 表现 ， 我 们 展开 模拟 研究 来 比较 R 指 标 
与 1 指标 、RCI 指 标的 表现 。Cui 和 Li (2015) 的 研究 表明 ，RCI1 指 标 优 于 Liu & (2009) 的 
似 然 比 统计 量 ， 故 没有 将 似 然 比 统计 量 作为 比较 对 象 。 
3.1 研究 设计 

探讨 在 DNA 模型 下 ， 不 同 项 目 长 度 、 项 目 质量 、 失 拟 被 试 类 型 下 Ri 指标 和 1 、RCI 指 
标的 一 类 错误 率 和 统计 检验 力 。 项目 长 度 和 质量 是 影响 诊断 性 测量 准确 性 的 关键 因素 (Cui 
etal., 2012) 。 一 类 错误 率 Ctypelerror) 也 称 “ 弃 真 ” 率 ， 是 指正 常 被 试 被 误 判 为 失 拟 被 斌 
的 比率 ， 统 计 检 验 力 是 指正 确 检 测 出 失 拟 被 试 的 比率 。 

实验 设计 : 采用 2X2X6 三 因素 完全 随机 实验 设计 。 三 个 因素 分 别 为 项 目 长 度 (20、 
40) 、 项 目 质量 (高 区 分 度 、 低 区 分 度 ) 、 失 拟 被 斌 类 型 (创造 性 作答 、 随 机 作答 、 疲 劳 、 
睡眠 、 作 次 、 随 机 作 浆 ; Cui & Li, 2015; Santos et al., 2020) 。 其 中 高 区 分 度 项 目 设置 成 失误 
参数 s 和 猜测 参数 g 服 从 均匀 分 布 U(0.05,0.25) 抽 取 ， 低 区 分 度 项 目 为 失误 参数 :和 猜测 参数 g 
服从 均匀 分 布 U(0.25,0.40) 抽 取 。 根 据 Cui 和 Li (2015) ， 创 造 性 作答 指 高 能 力 的 被 试 做 错 
简单 的 项 目 , 这 里 的 高 能 力 被 试 定义 为 掌握 了 所 有 考察 属性 的 被 试 , 简单 的 项 目 定义 为 只 测 
量 一 个 属性 的 项 目 , 实验 设置 为 假设 每 个 被 试 掌握 每 个 属性 的 概率 为 80%, 随机 生成 被 试 的 
属性 掌握 模式 , 被 试 在 只 测量 一 个 属性 的 项 目 上 答 错 ; 随机 作 管 指 测验 动机 低下 的 被 试 凭 猪 
测 随机 作答 ， 本 研究 设计 为 每 个 被 试 正 确 作答 每 题 的 概率 为 25% (Yu & Cheng, 2019) ; HE 
眠 指 考试 中 未 能 正确 回答 前 几 题 , 本 研究 设计 为 被 试 在 前 23% 题 目 上 答 错 ; 疲劳 指 考试 中 未 
能 正确 回答 后 几 题 , 这 里 设计 为 被 试 在 后 25% 题 目 上 答 错 ; 作 浆 指 低 能 力 被 试 抄 秦 高 能 力 被 


试 的 答案 ,从 而 答对 较 难 项 目 ， 本 研究 设置 为 按 20% 概 率 掌握 各 个 属性 的 被 试 中 ,掌握 2 个 


属性 以 下 的 被 试 在 考察 3 个 属性 以 上 的 项 目 上 正确 作答 ; 随机 作 浆 指 低能 力 被 斌 以 90% 的 
概率 答对 10% 的 难题 (Santos et al., 2020) 。 

本 研究 控制 变量 包括 : 被 试 数量 控制 为 1000 人 ， 选 用 认 知 诊断 模型 为 常见 的 DINA 模 
型 ， 考察 属性 为 6 个 ,固定 QKR CQ 矩阵 的 详细 信息 请 见 附录 B) 。 被 试 知识 状态 和 项 目 
参数 用 RR 语言 以 DINA 模型 估计 生成 。 重 复 实验 30 次 ， 评 价 指标 为 一 类 错误 率 和 统计 检验 
力 ， 检 验 水 准 w = 0.05， 本 研究 中 一 类 错误 率 设置 为 不 同 实验 条 件 下 在 DINA 模型 生成 的 
1000 个 正常 被 试 反应 模式 中 ， 被 指标 误 判 为 失 拟 被 试 的 比例 ， 统 计 检 验 力 指标 设置 为 每 种 
异常 被 试 类 型 生成 1000 个 失 拟 被 试 , 被 鉴别 出 的 异常 被 试 的 比例 。 取 30 次 实验 结果 平均 值 
作为 最 终 评 价 指标 。 

1 指标 和 RCI 指 标 均 在 显著 性 水 平 为 0.05 的 情况 下 ， 根 据 理论 分 布 取 临 界 值 ，1z 指 标 取 
5 分 位 为 临界 值 ，RCI 指 标 取 95 分 位 数 为 临界 值 。 对 于 R 指 标 ， 本 研究 采用 经 验 临界 值 ， 
具体 做 法 是 : 给 定 Q 矩阵 ， 根 据 DINA 模型 ， 假 设 被 试 的 知识 状态 服从 均匀 分 布 来 估计 被 
试 知 识 状态 ， 生 成 10000 个 正常 被 试 作答 数据 ， 使 用 MMLE/EM 估计 项 目 参数 (de la 
Torre, 2009) ， 为 每 位 被 试 计算 Ri 值 ， 从 低 到 高 排序 ， 取 Ri 值 的 95 分 位 数 作为 临界 值 。 
3.2 研究 结果 

表 1 给 出 了 不 同 实 验 条 件 下 三 个 指标 的 一 类 错误 率 和 对 不 同 异常 被 试 类 型 的 统计 检验 
力 ， 表 2 给 出 了 不 同 测验 长 度 下 的 模式 判 准 率 和 属性 边际 判 准 率 。 一 类 错误 率 的 结果 显示 ， 
R 指 标 对 一 类 错误 率 控制 得 较 好 , 稳定 在 0.05, 而 指标 和 RCI 指 标 一 类 错误 率 出 现 了 略微 膨 
IK, 在 题目 数量 为 40 题 时 ，RCI 指 标 一 类 错误 率 趋 于 合理 。 这 与 Cui 等 (2015) 研究 结果 中 
1 指标 和 RCI 指 标 一 类 错误 率 在 正常 范围 有 些 不 一 致 ， 原 因 可 能 是 本 研究 采用 的 认 知 诊断 模 
式 为 DINA 模型 ， 而 Cui A (2015) 研究 中 使 用 的 是 C-RUM 模型 。 

在 统计 检验 力 方面 ， 随 着 题目 区 分 度 提 高 ， 各 个 指标 在 不 同 异 常 被 试 类 型 的 统计 检验 力 
均 有 所 提高 ， 其 中 心 指标 在 疲劳 、 睡 眠 、 创 造 性 作答 和 随机 作答 的 异常 被 试 类 型 下 ， 随 着 题 
目 区 分 度 提高 ， 统 计 检 验 力 提升 尤为 明显 ， 这 个 结果 与 Cui 和 Li (2015) 的 结果 一 致 。 随 着 
题目 数量 从 20 增加 到 40， 大 部 分 统计 检验 力 呈 现 上 升 趋势 ， 但 1 指标 在 疲劳 和 睡眠 的 异常 
被 斌 类 型 下 ， 以 及 R 指 标 在 随机 作 次 的 异常 被 斌 类 型 下 ， 随 着 题目 数量 的 增加 ， 统 计 检 验 力 
有 略微 下 降 。 
对 于 不 同 的 异常 被 试 类 型 ， 模 拟 研究 结果 显示 在 随机 作答 和 随机 作 浆 情况 下 ，R 指 标 表 
见 最 好 ， 在 疲劳 、 睡 眠 和 创造 性 作答 情况 下 ls 指标 则 表现 更 优 ， 而 随 着 题 量 增 加 ，R 指 标 在 
这 三 种 情况 下 的 统计 检验 力 接近 于 ls 指标,， 这 可 以 用 随 着 题 量 的 增加 ， 模 式 判 准 率 和 属性 判 


准 率 都 有 所 提高 来 解释 。 在 低 区 分 度 题目 上 , 在 疲劳 和 睡眠 的 情况 下 , R 指 标 比 lz 指 标 和 RCI 
指标 表现 更 好 。 在 作 次 情况 下 ， 则 是 RCI 指 标 表 现 最 好 且 最 稳定 ，iz 指 标 表现 不 理想 。 


表 1 不同 异 常 被 试 类 型 的 一 类 错误 率 和 统计 检验 力 


统计 检验 力 
题目 数 ” 题目 区 分 i ”一 类 错误 | | 
R 0.05 0.40 0.43 0.96 0.97 0.88 0.80 
(0.01) (0.01) (0.02) (0.01) (0.01) (0.01) (0.02) 
言 区 分 度 1 0.08 0.85 0.81 1 0.62 0.11 0.66 
ieee! (0.01) (0.01) (0.03) (0) (0.02) (0) (0.01) 
RCI 0.06 0.25 0.41 0.91 0.95 1 0.18 
20 题 a OD A A E a 
R 0.05 0.38 0.35 0.77 0.85 0.76 0.79 
(0.01) (0.02) (0.01) (0.03) (0.01) (0.02) (0.01) 
pe 0.08 0.09 0.03 0 0.29 0.01 0.01 
低 区 分 度 l (0.01) (0) (0.01) (0) (0.01) (0) 
RCI 0.06 0.07 0.24 0.90 0.78 1 0.09 
(0.01) (0) (0.03) (0.02) (0.03) (0) (0.01) 
OO p 0050638072 1 i os 07 
(0.01) (0.01) (0.01) (0) (0) (0.01) (0.02) 
E 0.06 0.78 0.74 1 0.68 0.10 0.72 
MRS l (0.01) (0.01) (0.02) (0) (0.01) (0.01) (0.01) 
RCI 0.05 0.43 0.66 1 0.99 1 0.20 
ae 00) (0.02) 0o O) oo ) oo 
R 0.05 0.51 0.34 0.87 0.84 0.78 0.50 
(0.01) (0.01) (0.02) (0.03) (0.01) (0.02) (0.02) 
ess 0.07 0.07 0.07 0.02 0.60 0.01 0.01 
低 区 分 度 l (0.01) (0.01) (0.01) (0.01) (0.01) (0) 
0.05 0.08 0.25 0.89 0.79 1 0.10 


RCI 
(0.01) (0.01) (0.01) (0.02) (0.03) (0) (0.01) 


备注 : 括号 内 数值 表示 重复 实验 30 次 的 标准 差 。 

综合 可 以 看 出 : 随 着 题目 数量 和 题目 质量 的 增加 , 各 个 被 试 拟 合 指标 对 异常 被 试 类 型 侦 
察 度 越 好 ， 创 造 性 作答 的 异常 被 试 类 型 较 容易 被 检测 出 来 ，RCI 指 标 适合 检测 作 次 的 异常 被 
试 类 型 ，1s 指 标 则 更 适合 检测 疲劳 、 睡 虐 的 异常 被 试 类 型 ，R 指 标 对 创造 性 作答 、 随 机 作答 


和 作 整 均 有 较 好 的 统计 检验 力 ， 且 在 低 区 分 度 的 题目 上 ，R 指 标 表 现 也 最 稳健 。 


表 2 模式 判 准 率 与 属性 判 准 率 


判 准 率 
题 量 m SEE 
模式 判 准 率 (PCCR) 届 性 判 准 率 〈ACCR ) 
20 题 0.48 0.87 
40 题 0.77 0.95 


4. 研究 二 ，R 指 标 在 实证 数据 中 的 应 用 研究 

教育 评估 工具 应 该 能 反映 学 生 的 学 习 状 态 , 为 教学 改进 提供 反馈 信息 。 认 知 诊断 评估 对 
被 试 在 测验 所 考察 属性 上 的 掌握 水 平 进行 分 类 , 确定 被 试 对 哪些 属性 已 经 掌握 , 对 哪些 属性 
需要 补救 , 而 被 试 拟 合 检验 能 更 好 的 确保 被 斌 评估 分 类 的 准确 性 和 有 效 性 。 为 了 进一步 检验 
R 指 标 在 认 知 诊断 评估 中 应 用 的 可 行 性 ， 本 部 分 将 以 分 数 减法 的 数据 为 例 ， 用 R 指 标 进 行 被 
试 拟 合 检验 与 分 析 。 
4.1 实测 数据 来 源 

本 研究 采用 实测 数据 为 众多 实证 研究 中 运用 的 Tatsuoka 分 数 减 法 数据 , 共 536 个 被 试 ， 


题目 数量 为 11 题 (Henson etal., 2009) 。 该 测验 共 考 察 3 个 属性 ,Al 从 整数 借 位 (borrowing 


from whole number) , A2 将 整数 和 分 数 分 开 (separating whole number from fraction) , A3 通 


4} (finding common denominator) ， 其 测验 Q FEARFUL 3。 


表 3 实证 研究 数据 Q FEM 
属性 
题目 编号 题目 
Al A2 A3 
1 3 1/2-2 3/2 1 1 0 
2 3-2 1/5 1 0 1 
3 3 7/8-2 1 0 1 
4 4 4/12-2 7/12 1 0 0 
5 4 1/3-2 4/3 1 1 0 
6 11/8-1/8 1 1 0 
8 2-1/3 1 0 1 
9 4 5/7-1 4/7 1 0 1 
10 7 3/5-4/5 1 0 0 
11 4 1/10-2 8/10 1 0 0 


13 4 1/3-1 5/3 1 1 0 


4.2 研究 过 程 与 方法 

本 研究 根据 分 数 减法 (Henson et al., 2009) 的 Q RERE AGE, KAH DINA 模型 ， 
通过 R 语言 中 的 GDINA 包 估 计 出 项 目 参数 和 被 试 的 属性 掌握 模式 ， 项 目 参数 结果 见 表 
4。 再 根据 估计 出 的 项 目 参数 ， 模 拟 10000 名 正常 被 试 的 作答 数据 ， 取 95 分 位 数 为 判别 异 
常 被 试 的 临界 值 ， 最 后 根据 R 指 标的 临界 值 对 实际 作答 数据 进行 被 试 拟 合 检验 。 并 且 ， 将 
RCI 指 标 和 1 指标 也 应 用 到 这 批 数 据 上 ， 比 较 它 们 在 分 析 结 果 上 的 差异 。RCI 和 1 指标 的 结 
果 说 明 请 见 附录 Co 
表 4 实证 研究 数据 项 目 参 数 


项 目 参数 
题目 编号 
失误 参数 s 猜测 参数 g 

1 0.1207 0.2158 

2 0.1762 0.1069 

3 0.1513 0.5088 

4 0.2487 0.0321 

5 0.0691 0.0677 

6 0.0465 0.5304 

8 0.0864 0.1333 

9 0.0534 0.5233 

10 0.1462 0.0329 

11 0.1577 0.1129 

13 0.1762 0.0078 
4.3 研究 结果 


结果 显示 ， 有 23 名 被 试 被 检测 出 作答 反应 异常 ， 占 总 人 数 的 4.29%。 下 表 列 出 了 部 分 
异常 反应 被 试 的 基本 情况 。 
编号 为 24、48 和 97 号 的 被 试 答对 了 第 5、6、9、10 题 ， 这 几 题 考察 第 1 个 属性 4 次 ， 
考察 第 2 个 属性 2 次 ， 未 考察 第 3 个 属性 ， 估 计 这 几 个 被 试 属性 掌握 模式 为 [110]， 其 理想 
作答 反应 为 [10011100111, 但 被 试 均 在 第 1、4、11 题 上 答 错 ， 第 1 题 和 第 11 题 考 察 属性 Al 
和 A2， 可 能 还 需 进一步 分 析 被 试 是 否 掌握 了 第 2 个 属性 。 
号 为 137 号 被 试 观察 作答 反应 是 [00001011111]， 估 计 其 属性 掌握 模式 为 [111]， 从 
里 论 上 讲 被 试 掌握 了 所 有 的 属性 ， 那 么 他 在 所 有 题目 上 都 应 该 答对 ， 但 被 试 在 实际 上 前 四 


或 


ie 


题 都 答 错 了 ， 有 可 能 出 现 了 “睡眠 ”的 异常 反应 模式 。 

编号 为 230 号 被 试 ， 模 型 估计 其 属性 掌握 模式 为 [000]， 但 其 观察 作答 反应 为 
[01100100110]， 答 对 了 第 2、3、6、9、10 题 ， 有 可 能 有 作 浆 行为 。 

表 5 部 分 异常 反应 被 试 情况 


被 试 编号 观察 作答 理想 作 短 属性 掌握 模式 
24、48、97 00001100110 10011100111 110 
25 10111100000 10011100111 110 
37 10000111101 11111111111 111 
63 01101101010 11111111111 111 
115 11010001010 01110011110 101 
137 00001011111 11111111111 111 
171, 194 00000101111 10011100111 110 
183 11101001100 11111111111 111 
203 01011111001 11111111111 111 
219 01110110000 00000000000 000 
230 01100100110 00000000000 000 
449 10011101000 10011100111 110 


5. 讨论 与 进一步 的 研究 方向 
本 研究 新 提出 认 知 诊断 评估 中 的 被 试 拟 合 指 标 R 指 标 ， 并 将 其 与 (指标 和 RCI 指 标 进 行 

比较 。 在 模拟 研究 中 ，R 指 标 一 类 错误 率 稳定 在 0.05 左右 ， 较 为 正常 ， 可 用 于 认 知 诊断 评 
价 中 对 异常 反应 被 试 进行 侦察 。 首 先 ， 模 拟 研究 结果 表明 ， 随 着 题目 数量 增加 和 题目 区 分 
度 提 高 ，R 指 标 检 测 率 越 高 ， 这 与 预期 一 致 。 但 本 研究 中 ，1z 指 标 一 类 错误 率 出 现 略 微 膨胀 
以 及 lz 指标 在 疲劳 和 睡眠 两 种 异常 被 试 类 型 下 ， 随 着 题目 数量 的 增加 ， 统 计 检 验 力 出 现下 
降 的 现象 ， 与 Cui EA 2015) 研究 结果 不 一 致 ， 可 能 是 所 选 模型 不 同 导致 ， 有 待 进一步 
完 加 以 探讨 。 

其 次 ， 由 于 目前 还 不 完全 了 解 R 指 标的 理论 分 布 ， 本 研究 中 R 指 标的 临界 值 是 采用 经 验 
分 布 确定 的 ， 这 在 实际 应 用 中 可 能 不 方便 使 用 ， 探 索 R 指 标的 统计 性 质 ， 如 果 能 够 推导 
的 理论 零 分 布 或 近似 分 布 CAndrews, 1993) ， 则 更 有 助 于 它 的 应 用 和 推广 。 


No 


aa 


CE. 
co 


第 三 ， 本 研究 中 的 R 指 标 是 对 各 考生 所 有 项 目 上 的 求 和 ， 如 果 将 R 指 标定 义 在 各 项 目 在 
所 有 考生 上 的 求 和 ， 则 可 以 用 于 项 目 拟 合 检 验 (Drasgow etal., 1985) ， 因 此 ， 将 R 指 标 推广 
到 项 目 拟 合 检验 也 是 值得 研究 和 探索 的 。 
第 四 , 项 目 质量 对 于 被 试 拟 合 检 验 有 非常 大 的 影响 ,本 研究 没有 把 项 目 质量 纳入 考虑 是 
一 个 不 足 之 处 , 未 来 需 进一步 探索 项 目 质量 对 于 R 指 标的 表现 。 除 此 之 外 ，Wang 等 (2018) 
对 确定 被 试 异常 作答 的 类 型 进行 了 尝试 , 这 方面 的 工作 也 需要 进行 深入 的 探索 。 在 实证 研究 
中 ,由 于 采用 的 是 其 他 研究 的 实证 数据 ， 故 无 法 对 侦察 出 的 异常 被 试 做 进一步 分 析 以 及 补救 
措施 。 而 且 被 试 出 现 异常 作答 反应 的 原因 不 能 仅仅 只 根据 被 试 拟 合 指标 来 确定 ， 因为 被 试 拟 
合 指标 不 能 直接 指出 异常 反应 行为 的 实际 原因 ,因此 , 进一步 分 析 被 试 考试 行为 的 辅助 信息 
如 被 试 的 口头 报告 、 座 位 安排 、 考 试 时 间 等 是 十 分 必要 的 。 

最 后 ， 由 于 二 级 计 分 方式 的 模型 只 能 评价 被 试 是 否 掌握 某 一 知识 或 技能 ， 而 对 被 试 在 
不 同 知识 或 技能 的 掌握 水 平 或 程度 不 能 进行 有 效 地 评价 ， 在 实际 情景 中 ， 教 育 与 心理 测验 
中 的 题目 形式 丰富 多 样 ， 如 教育 考试 中 的 计算 题 、 论 述 题 、 简 答题 、 证 明 题 、 作 文 题 ， 心 
量 表 中 的 Likert 型 量 表 等 等 ， 这 些 题 型 的 数据 基本 都 是 多 级 评分 数据 〈 丁 树 良 等 , 2014; 
夏 梦 连 等 , 2018; EIS, 2019) 或 多 分 属性 下 的 评分 数据 〈 丁 树 良 等 , 2015; AIAS, 
2017) ， 未 来 可 将 被 试 拟 合 检验 扩展 到 多 级 计 分 或 多 分 属性 下 的 认 知 诊断 。 
6 结论 

本 研究 提出 在 认 知 诊断 框架 下 的 被 试 拟 合 指标 R， 通 过 模拟 研究 比较 RCI、ls 和 R 指 标的 
一 类 错误 率 及 统计 检验 力 ， 并 将 指标 应 用 于 实证 数据 ， 验 证 R 指 标 在 实证 数据 中 的 表现 。 研 
究 结果 表明 ，R 指 标 一 类 错误 率 较 合 理 ，/z 指 标 和 RC7 指 标 一 类 错误 率 出 现 了 略微 膨胀 。 随 着 
题目 区 分 度 和 题目 数量 的 增加 , 指标 的 统计 检验 力 有 所 提高 。 对 于 不 同 的 异常 被 试 类 型 , RCI 
指标 适合 检测 作 次 的 异常 被 试 类 型 ，1; 指 标 适合 检测 疲劳 、 睡 眠 的 异常 被 试 类 型 ，R 指 标 对 
创造 性 作答 、 随 机 作答 和 作 浆 的 异常 被 试 均 有 较 好 的 侦察 力 。 
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Research on Person-fit in Cognitive Diagnostic Assessment 


Yu Xiaofeng’, Tang Qian’, Qin Chunying?, Li Yujun' 
(‘School of Psychology, Jiangxi Normal University, Nanchang, 330022) 


(School of Mathematics and Information Science, Nanchang Normal University, Nanchang 330032) 


Abstract Cognitive Diagnostic Assessment (CDA) has been widely used in educational 
assessment. It can provide guidance for further study and teaching by analyzing whether the test- 
takers have acquired knowledge points or skills. 

In psychometrics, statistical methods for assessing the fit of an examinee’s item responses to a 
postulated psychometric model are often called person-fit statistic. The person-fit analysis can help 
to verify the individual diagnostic results, and is mainly used to distinguish the abnormal examinees 
from the normal ones. The abnormal response patterns include “sleeping” behavior, fatigue, 
cheating, creative responding, random guessing responses and cheating with randomness, and all of 
these abnormal response patterns can affect the deviation of examinee’s ability estimation. The 
person-fit analysis can help researchers identify the abnormal response patterns more accurately, so 
as to delete the abnormal responding examinees and improve the validity of the test. In the past, 
most of the person fit researches were mainly carried out under the Item Response Theory (IRT) 
framework, while only few papers have been published dealing with person-fit under the CDM 
framework. This study attempts to fill a gap in the literature by introducing new methods. In this 
study, a new person fit index (R) was proposed. 

In order to verify the validity of the newly developed person fit index, this study explores the 
type I error and statistical test power of R index under different item length, item discrimination and 
different misfit types of respondent, and compares it with existing methods RC/ and l. Type I error 
rate was defined as the proportion of flagged abnormal response patterns by a person fit statistic out 
of 1,000 generated normal response patterns from the DINA model. The control variables of this 
study include: the number of subjects is controlled to 1000, the cognitive diagnosis model is chosen 
as DINA model, the attributes are 6, and the Q matrix is fixed. Finally, in order to reflect the value 
of person fit index in practical application, the R index is applied to the empirical data of fractional 
subtraction. 

The results show that the type I error of R index is reasonable and stable at 0.05. In the aspect 
of statistical test power, with the improvement of item differentiation, the statistical test power of 
each index in different abnormal examinees is improved. With the increase in the number of items, 
most of the statistical power show an upward trend. For different types of abnormal subjects, R 
index perform best in the cases of random guessing responses and cheating with randomness. In the 
case of fatigue, sleep, and creative responding, the l, index perform better. In the empirical data 


study, the detection rate of abnormal examinees is 4.29%. 


With the increase of the discrimination of items and the increase of the number of items, the 
power of R index has improved, and the performance of R index is the most robust when the 
discrimination of item is low. The R index has a high power for the types of abnormal behavior such 
as creative responding behavior, random guessing responses and cheating with randomness. 


Keywords cognitive diagnosis, person fit, DINA model, aberrant response 


WA 1 和 RCIT 指 标 
(1)1z 指 标 

Cui 和 Li (2015) 将 1 指数 (Drasgow et al., 1985) 引入 到 认 知 诊断 测验 中 ，1; 指 标 是 常 
见 的 项 目 反 应 理论 下 的 被 试 拟 合 指标 ， 源 于 似 然 函数 l。 (Levine & Rubin, 1979) ， 是 10 的 标 
准 化 。 基 于 选 定 的 项 目 反 应 理论 CRT) 模型 ,lo 计算 观察 的 项 目 反 应 模式 的 对 数 似 然 值 ， 表 
达 式 如 下 : 


loi = In TH BH- (AD 


其 中 Xi; 是 两 级 〈0, 1) 计 分 ， 表 示 被 试 i 在 第 10 = 1,2... DPA MWD, PC 9;) 是 


能 力 为 9; 的 被 试 i 在 项 目 i 上 的 正确 作答 概率 ，i0; 较 小 值 表示 给 定 的 IRT 模型 中 ， 能 力 为 9; 的 
被 斌 i 出现 反应 模式 Xi 的 概率 较 小 。 对 Wo; 进行 标准 化 ， 得 到 统计 量 ]; 为 : 


— lo-E(lo) 
= [Var(Io)]172 (A-2) 


其 中 ，E(10) = X)_,{P;(@) mn[P;(0)] + [1—P(0)] nl1— PC0)]} (A-3) 


(A-4) 


: 2 
Var(lo) = Shs BON -BO [In | 


Cui 和 Li (2015) 4P (0) 改 为 认 知 诊断 模型 中 的 B(ai) ， 构 建 了 基于 诊断 测验 中 的 拟 
合 统计 量 !;， 其 模拟 研究 中 发 现 ， 基 于 被 试 属性 掌握 模式 估计 值 时 ，1s 指 标 旦 负 偏 态 分 布 ， 
这 与 2 指标 在 项 目 反 应 理论 下 的 结果 一 臻 (Molenaar & Hoijtink, 1990; Reise, 1995) 。 

(2) 反应 一 致 性 指标 RCI 

由 于 HCI 指 标 是 依赖 于 属性 之 间 的 层级 关系 的 , 当 属性 之 间 不 存在 属性 层级 关系 时 , HCI 
指标 就 不 能 使 用 。 基 于 此 ，Cui 和 Li (2015) 提出 了 反应 一 致 性 指标 (response conformity 
index, RCD ，RCI 是 评估 Q 逢 阵 的 预测 反应 和 被 试 观察 反应 之 间 的 一 致 性 程度 的 ， 其 表达 
式 如 下 : 


1 |- Xij-P j(@i T~ (A-5) 


= yl = yl 
RCI, = Yj24|RChj| = X4- |in TOET 


其 中 ，wi 为 被 试 ;的 属性 掌握 模式 ，B(oi) 为 属性 掌握 模式 ai; 的 被 试 正确 作答 项 目 j 的 概率 ; 
7 (ai) 为 属性 掌握 模式 wi; 的 被 试 对 项 目的 理想 反应 。 即 当 被 试 掌握 了 项 目 考察 的 所 有 属性 时 ， 
(aj) = 1， 如 果 缺 少 一 个 或 多 个 属性 , 则 该 项 目的 理想 反应 将 为 0; Xi 为 被 试 的 实际 作答 ， 
取 值 为 0 或 1。 

对 于 每 个 题目 , RC1; 测 量 的 是 观察 到 的 项 目 反 应 Xij 与 理想 反应 (ai) 的 偏离 程度 ， 当 
Xij = 1a) RCI, = 0, 说 明 被 试 拟 合 很 好 ; 当 Xij + (a) 时 , 被 试 拟 合 取 决 于 Xij — P (a) 
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All; (aj) 一 已 (ai) 的 差异 大 小 ， 如 果 Xij 一 P(gi) Mla) 一 已 (ci) 相 比比 较 大 ， 表 明 被 试 对 


项 目的 作答 是 不 符合 期 望 的 ， 


内 此， 可 能 出 现 了 异常 反应 行为 ， 如 作 次 、 创 造 性 作答 ， 此 时 


RCI AMER IEA, FUR, WR (a) 一 Pi(Qi) 与 Xij 一 P(ti) 相 比比 较 大 , 可 能 的 原因 是 
题目 质量 较 差 ， 或 被 试 作答 时 采用 了 非 Q 矩阵 指定 的 策略 ， 这 种 情况 下 ,及 C7 为 一 个 较 大 的 


负 值 。 


E 阵 


附录 也 研究 一 所 使 用 的 Q HERE 
表 B-1 K = 6,] = 20 模 拟 数据 的 Q 4 
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附录 C RCI 和 1 指标 对 分 数 减法 数据 的 分 析 结 果 说 明 
除了 R 指 标 外 ， 同 时 也 将 RCI 和 1 指标 对 分 数 减法 数据 进行 了 分 析 。 结 果 显 示 ， 


1 和 RCI 


指标 分 别 检测 出 47 和 35 名 被 试 反应 异常 ， 占 总 人 数 的 8.8% 和 6.5%。 这 里 面 比较 有 趣 的 现 


象 是 R 指 标 虽 然 只 标记 出 了 23 位 异常 考生 ， 但 是 这 23 人 里 面 有 1 人 没有 被 标记 


HÆ, 全 


部 被 RCI 标 记 出 来 ， 这 个 结果 也 表明 RR 指标 在 标记 异常 考生 的 时 候 会 更 “保守 ”, 这 对 于 “高 


风险 ”的 测验 来 说 是 非常 有 必要 的 ， 因 为 在 标记 考生 有 异常 作答 行为 时 需要 非常 慎重 ， 


yea 
通常 要 


综合 多 种 方法 来 对 考生 的 数据 进行 分 析 ， 然 后 才能 做 出 决策 。 进 一 步 ， 没 有 被 标记 出 但 是 
被 lz 标记 出 的 考生 编号 为 137， 其 观察 得 分 模式 [00001011111]， 可 以 看 出 ， 这 位 考生 出 现 了 
类 似 “ 热 身 效应 ”或 “睡眠 ”的 作答 行为 ， 这 个 结果 也 从 一 个 侧面 验证 了 1 指标 在 较 短 的 测 


验 中 对 于 睡眠 行为 的 检验 力 严重 依赖 题目 质量 的 特点 。 
比较 RCI 和 i 指标 的 分 析 结 果 , 被 它们 同时 标 出 的 考生 有 28 人, 分 别 占 各 自 标 HH 


总 人 数 


的 80% 和 60%。 这 个 比例 也 进一步 说 明 民 指标 在 标记 异常 考生 时 标准 相对 宽松 , 与 研究 一 中 


1 略微 “膨胀 ”的 一 类 错误 率 是 对 应 的 。 


